雖然 密集檢索 透過捕捉語義意圖,密集檢索徹底改變了搜尋方式,但生產環境揭示了一個嚴酷的事實:向量嵌入經常『平滑化』關鍵細節,例如產品編號、罕見縮寫與技術術語。真實世界並非純粹語義化的;它是抽象意義與嚴格識別符的混亂結合。
生產環境中的現實
- 詞法優勢:詞法檢索(如BM25)仍是精確詞彙與短語重疊的黃金標準。它不會試圖猜測『你想要什麼』,而是找到『你說過的內容』。
- 語義差距:密集檢索在匹配語義方面極其強大(例如『付款問題』與『交易失敗』的匹配),但它本質上難以處理高精度的 稀疏信號 如SKU編號或零件代碼。
- 混合檢索的必要性:混合檢索之所以存在,是因為世界既非純粹語義化,也非純粹詞法化。使用者行為具有二元性——有時他們在搜尋一個概念,有時則在尋找特定的『大海撈針』式標記。
技術洞察
密集檢索擅長匹配語義,而詞法檢索則擅長精確詞彙、識別符與短語重疊。真實使用者的問題通常需要兩者兼具。混合檢索之所以存在,正是因為世界既非純粹語義化,也非純粹詞法化。